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摘 要 : 针对 传统 聚 类 算法 无 法 处 理 大 数据 中 多 视图 高 维 数据 问题 ， 提 出 了 一 种 基于 混沌 粒子 群 优化 算法 的 智能 加 
权 开 均值 聚 类 算法 。 首 先 ， 在 聚 类 模型 中 引入 聚 类 之 间 的 耦合 程度 以 扩大 聚 类 的 相似 性 。 其 次 ， 为 了 消除 初始 聚 类 
中 心 的 敏感 性 ， 利 用 混沌 粒子 群 优化 算法 通过 全 局 搜索 得 到 最 优 初 始 聚 类 中 心 、 视 图 权重 和 特征 权重 。 然 后 ， 引 入 
一 种 精确 摄 动 策略 提高 混沌 粒子 群 优化 算法 的 寻 优 性 能 。 最 后 通过 在 apache spark 和 single node 两 个 平台 上 的 实验 
验证 了 提出 的 方法 在 视图 多 、 维 数 高 的 复杂 数据 集 条 件 下 具有 较 好 的 聚 类 性 能 。 
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IWKM clustering algorithm for high dimensional multi view data based on chaos PSO 
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Abstract: Aiming at the problem that traditional clustering algorithm can't deal with multi view and high dimension data in 
big data, this paper proposed an intelligent weighted K-means clustering algorithm based on chaos particle swarm optimization 
algorithm. Firstly, it introduced the coupling degree between clusters to expand the similarity of clusters. Secondly, in order 
to eliminate the sensitivity of the initial clustering center, it used chaos particle swarm optimization algorithm to obtain the 
optimal initial clustering center, view weight and feature weight through global search. Then, it introduced an accurate 
perturbation strategy to improve the performance of chaos particle swarm optimization. Finally, experiments on Apache spark 
and single node show that the proposed method has better clustering performance under the condition of complex data sets 
with multiple views and high dimensions. 
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0 引言 上 述 方法 由 于 聚 类 性 能 的 限制 对 大 数据 应 用 中 更 复杂 的 高 维 
四 数据 的 聚 类 效果 较 差 。 
当前 ， 人 工 智 能 、 移 动 互联 网 、 社 交 网 络 和 物 联网 生成 为 了 解决 实际 大 数据 应 用 中 的 高 维 多 视 图 数据 聚 类 问题 ， 


[= 


人 

并 推动 大 数据 应 用 的 快速 发 展 山 习 。 在 各 种 大 数据 并 且 进 一 步 提 升 该 聚 类 算法 的 聚 类 性 能 ， 提 出 了 一 种 基于 混沌 
RP 有 i 高 维 多 视 图 数据 ， 高 维 多 视 图 数据 通常 以 粒子 群 优化 算法 (chaos particle swarm optimization, CPSO) 的 智能 
= 各 种 来 源 获 得 的 多 个 特征 空间 和 不 同 结构 进行 描述 Bl]。 传 统 ” 加 权 均值 (intelligent weighted K-means, TIWKMD) 聚 类 算法 。 
工 图 作为 一 个 统一 的 变量 集 ， 对 此 类 具有 数 

量 、 种 类 、 速 度 、 准 确 性 和 价值 等 多 视图 的 数据 聚 类 效果 较 相关 理论 


差 门 。 在 大 数据 环境 下 ， 如 何 实现 高 维 多 视图 数据 的 聚 类 以 1.1 加 权 K 均值 聚 类 算法 
ee 是 最 有 具 挑战 性 的 问题 之 一 口 。 集群 是 数据 对 象 的 集合 ， 这 些 数据 对 象 在 同一 集群 中 彼 
由 于 大 数据 的 广泛 应 用 ， 多 视图 数据 的 聚 类 吸引 了 许多 ”此 相似 ， 但 与 其 他 集群 中 的 对 象 不 同 09。 给 定数 据 对 象 集 


研究 人 员 的 关注 。 文 献 ee he X=[xwo，N 是 数据 对 象 的 数量 ， 是 数据 对 象 的 维度 。 也 
留 在 集群 结构 中 ， 然 后 提出 一 种 交 蔡 算 法 来 实现 该 结构 。 对 ”就 是 说 ， 数 据 对 象 具有 D 个 特征 。 聚 类 问题 试图 找到 X 的 大 
于 多 视图 聚 类 问题 ， 文 献 [7] 提 出 了 一 种 新 颖 的 多 视图 关联 传 分 区 。 簇 的 中 心 是 Z=[zjJeo 。0 =[wis]wc ， 模 糊 除法 和 矩阵， 描 


忆 


播 算法 ， 该 算法 特别 适合 于 对 两 个 以 上 的 视图 进行 聚 类 。 在。 述 对 象 是 某 些 集群 的 隶属 度 。 

文献 [8] 中 ， 提 出 了 局 部 自 适应 聚 类 (local adaptive clustering， 和 为 具有 敏感 初始 聚 类 中 心 的 聚 类 算法 ，K 均值 被 广泛 
LAC) 算 法 ， 六 算法 为 每 个 旨 类 的 每 个 特征 分 配 权重 ， 通过 使 于 实际 应 用 中 ， 例 如 图 像 分 割 和 数据 挖掘 0 5。 天 均值 的 
j 运 代 算 法 最 小 化 其 目标 函数 。 文 献 [9] 等 提出 了 一 种 多 视图 标 是 找到 一 个 分 区 ， 以 最 小 化 带 复 的 平方 和 。 在 聚 类 过 程 


数据 的 自动 两 级 变量 加 权 K 均值 (two-variables weighted K- 中 ， 用 以 下 式 子 解决 样本 划分 任务 : 

means,TWKMD) 聚 类 算法 , 该 算法 可 以 同时 计算 视图 和 单个 变 CW 2 

量 的 权重 ， 但 是 很 容易 导致 在 单个 特征 和 单个 视图 上 具有 较 P02) PE sa) 1 

大 权重 的 聚 关 ， 因 此 权重 的 分 布 不 平衡 。 然 而 ， 上 述 算法 主 本 

要 关注 于 具有 视图 方式 关系 的 问题 ， 而 忽略 了 数据 集 高 维特 气 

征 的 重要 性 , 使 得 聚 类 结果 与 实际 应 用 存在 较 大 差异 ,此 外 ， 其 中 : U0 被 定义 为 分 区 和 矩阵，w 是 一 个 二 进 制 变量 。 
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Z ={2Z1,22,...,Z.} 是 一 组 向 量 里 ， 表示 k 个 簇 的 质心 。 (一 人 A 下 
第 i 个 对 象 与 第 /个 变量 上 的 第 个 簇 的 中 心 之 间 的 距离 度量 。 
在 经 典 的 K 均值 聚 类 算法 中 , 所 有 特征 均 具 有 相同 的 权 
在 诸如 消费 者 细 分 之 类 的 聚 类 问题 中 ， 所 有 特征 均 得 到 
同等 对 待 。 实 际 上 ， 在 许多 实际 应 用 中 ， 数 据 集中 不 同 特征 
对 聚 类 的 影响 是 不 同 的 ， 因 此 有 必要 为 不 同 特征 分 配 不 同 的 
权重 。K 均值 类 型 聚 类 中 的 自动 变量 加 权 是 加 权 K 均值 聚 类 
算法 ， 目 标 函 数 为 
F(U,Z,WF) = YY (吉政 让 


kl 忆 | 总 | 


| 由 
tat 


和 pb (2) 
St x =1,, ux {0,1} Do wf;=1,0< wh;<1 
k=1 j=1 


其 中 ，U 被 定义 为 nxk 分 区 和 矩阵 。 
1.2 软 子 空间 聚 类 算法 

软 子 空间 聚 类 算法 根据 维度 在 发 现 相 应 聚 类 中 的 作用 来 
确定 维度 的 子 集 。 维 度 的 贡献 是 通过 在 聚 类 过 程 中 分 配给 维 
度 的 权重 来 衡量 的 。 在 文献 [13] 中 提出 了 一 种 软 子 空间 聚 类 
算法 ， 目 标 函 数 的 建 模 为 


WF 是 特征 的 权重 。 


Ee 
F(U,Z,WCF)= 2 > uawcfe, (x — zi) 
k=] i=1 j=l 
St x =1,1<i<N, wr et{0,l), (3) 
大 =1 
D 
> wcf =1,0< wafij sl 
j= 


其 中 WCF 是 每 个 集群 中 每 个 属性 的 权重 。 
2 IWKM 算法 


2.1 高 维 多 视 图 数据 的 聚 类 模式 
用 于 将 X 划分 为 具有 视图 和 特征 
模 为 以 下 目标 函数 的 最 小 化 。 
min Fitness(U,Z,WV,WF )= 


C N AT 
De ei Ui wv wf (x 一 2 ) 
区 Ea 
D1 od vd wy wf (zk 0 ) 
尼 
Du =1,1<ig N,u el0,1] 


n (4) 
Pw, =1,0< wvp, <1 

LE 

> wf;=L0<w; <10st<T 


jeView, 
[oo 

poj = > zai/lC 
k=] 


其 中 UV=[wilwe 是 一 个 NxC 分 区 矩阵， 其 元 素 wi 为 二 进 制 ， 
其 中 以 =1 表示 对 象 i 己 分 配给 集群 Kk 。Z=[zjlow 是 一 个 
NxC 和 矩阵， 其 元 素 表示 艇 k 的 第 j 个 特征 。WV =[ww 是 
7 视图 的 权重 。 WF =[wf;]je View, 是 视图 1 下 的 特征 权重 。 
wwfj(z-zey) 是 第 i 个 对 象 与 第 k 个 簇 的 中 心 之 间 的 第 j 个 
特征 的 加 权 距 离 度 量 。www (zxv-o 小 是 第 大 个 聚 类 与 平均 聚 类 
中 心 之 间 的 第 j 个 特征 的 加 权 距 离 度量 ，o, 是 C 个 聚 类 的 平 
均 聚 类 中 心 。 该 值 描述 集群 之 间 的 耦合 程度 ， 越 大 表示 相 异 
性 越 大 。 
2.2 CPSO 和 粒子 编码 
在 IWKM 中 , 提出 了 CPSO 以 帮助 算法 获得 更 好 的 初始 
聚 类 中 心 、 视 图 权重 和 特征 权重 。 每 个 粒子 i 代表 D 维 解 空间 
中 的 候选 解 , 它 具 有 两 个 向 量 : 位 置 向 量 X=[, 台 ,…,x?] 和 速 
度 向 量 VW = 中 ,部 …,w] 。 在 演化 过 程 中 ,通过 以 下 等 式 更 新 迭 
代 :+1 上 维度 为 4 的 粒子 i 的 速度 矢量 和 位 置 矢量 : 
v(t+h) = v(t) ton(pBest? (1)— pr (1)) 
+cn (gBest’ (t)— ps (1)) G5) 
MLD=X (D+v LT 了 (6) 


的 集群 的 聚 类 建 


= 
?1 
[Ral 


中 d=1.2 ， 表示 搜索 空间 的 每 个 维度 ，o 是 惯性 权重 ，。 
和 分 别 是 认 知 学 习 系数 和 社会 学 习 系数 ， 和 是 在 [0 
范围 内 的 两 个 均匀 随机 数 ， pBest (0 是 在 粒子 ; 的 第 ; 次 选 代 
之 前 找到 的 具有 最 佳 适应 度 的 维度 4 上 的 位 置 ，gBesr () 是 
整个 粒子 群 在 维度 4 上 找到 的 最 佳 位 置 。 惯 性 权重 。 通 常 更 
新 为 


办 三 Cu — (Dnarx — Din )X 8 / Bmax (7) 
其 中 www 和 om 是 初始 权重 和 最 终 权 重 , 分 别 设置 为 0.9 和 0.4。 
8 是 当前 进化 世代 数 ，sgwe 是 最 大 世代 数 ， 并 设置 为 130。9% 
和 c 分 别 设置 为 1.8 。 维 度 4 上 每 个 粒子 的 速度 限制 在 
。 因 此 , 如 果 速 度 *(?) 超过 


[-vmax’,vmax] , vmax’ < 及 + vimax” ， 


则 将 其 重新 分 配给 vmax” 。 否则, 如 果 速 度 F(7) 小 于 -wmaxe ， 
则 将 其 重新 分 配给 -vmax*。 如 果 vmax* 太 大 , 粒子 可 能 会 错过 
良好 的 解决 方案 。 另 一 方面 , 如 果 vmax* 太 小 , 粒子 可 能 会 陷 


入 局 部 最 优 状态 。 
20%。 

粒子 编码 是 使 用 粒子 群 搜索 最 佳 解 的 前 提 鸣 。 在 IWKM 
中 ， 初 始 聚 类 中 心 、 视 图 权重 和 特征 权重 被 编码 为 粒子 表示 
式 。 每 个 粒子 由 FxC+T+F 维 实数 向 量 编码 。 丰 是 聚 类 问 
题 中 对 象 的 特征 数 。 群 中 的 第 i 个 粒子 被 编码 为 


通常 将 最 大 速度 "max“ 设 


为 搜索 范围 的 


人 
x, 二 | ， i 1 (9) 
WTV ,...， wy ,whl Wh 
X(t+1)=r:x(1t):(—x()),reN,x(0) el[0,1] (9) 
N_S ldim 
d(pBest, gBest) = 2 [SCpBes, gBest,) <Q_d (10) 
-5 可 总 
sd(pBest;)= 


| 5 SD (piew, -Be + pBest, +***+ pBesty;))* <Q_ pBest 
(11) 


一 1 SBew (Mm) —gBest,(D) <QO_gBest (12) 


sd(gBest;) = 


2.3 精确 扰动 和 CPSO 

为 了 避免 局 部 最 优 和 过 早 收敛 ， 利 用 跳跃 或 突变 在 丰 
群体 智能 中 粒子 的 搜索 行为 方面 具有 很 大 的 优势 151。 
CPSO 中 ,混沌 逻辑 序列 扰动 被 用 于 帮助 粒子 脱离 局 部 最 优 
并 获得 更 好 的 搜索 质量 ， 具 有 确定 性 、 遍 历 性 和 随机 性 ， 将 
其 定义 为 等 式 (9)， 其 中 1 是 控制 参数 ，x 是 变量 ，r=4， 
1=0,1,2,... 。 
以 将 CPSO 的 精确 扰动 概括 为 以 下 过 程 的 相互 作用 
a) 创建 合适 的 扰动 粒子 : 为 了 减少 粒子 搜索 过 程 中 总 体 
稳定 性 的 损害 和 CPU 的 计算 负荷 ,通过 简单 的 随机 抽样 方法 
从 总 共 N_5 个 粒子 中 随机 选择 N_5/K_spark 个 粒子 作为 扰 
动 对 象 。K_spa 是 apache spark 中 的 工作 程序 节点 数 。 

b) 精确 扰动 时 间 : 扰动 的 时 间 是 粒子 群 过 早 收敛 的 时 间 。 
PBes 和 gBest 之 间 的 平均 距离 用 于 判断 粒子 是 否 处 于 过 早 收 
敛 状 态 ， 记 ,为 等 式 (10)。 其 中 ，V_S 和 dim 是 群 的 粒子 数 和 
粒子 的 维度 ，2-d 代表 过 早 收 敛 的 阔 值 。 如 果 
d(pBest, gBest)<Q_d ， 则 出 现 过 早 收 化 和 局 部 最 优 ， 然 后 应 采 
适合 N_S/K_spark 粒子 的 扰动 。 

c) 精确 扰动 维度 : 由 于 粒子 具有 一 个 以 上 的 维 ， 因 此 根 
据 惯 性 的 优先 级 ， 优 先 选择 一 些 具 有 较 高 惯性 的 维 来 进行 扰 
动 。 第 7 维 中 的 pBest 和 gBest 的 惯性 可 以 由 均 方差 给 出 , 分别 
记 为 等 式 (11) 和 (12)。 其 中 N_S 和 m 是 群 的 粒子 数 和 当前 从 
代数 。 如 果 sd(pBesitj)<Q_pBest 或 sd(gBest;))<Q_gBest ， 则 第 j 维 
的 pBest ,gBest 是 惰性 的 ， 需 要 进行 扰动 。 其 中 8_pBest 和 
Q_gBest 分 别 是 pBest 和 gBest 的 惰性 阔 值 。 
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2.4 ”IWKM 流程 4 ”图 像 分 割 ” 2310 7 19 2 (330,330,...,330) 
IWKM 算法 的 流程 图 如 图 1 所 示 。 5 心电图 2126 3 21 3 (1655,295,176) 
Ce ) 多 特征 数据 集 是 从 荷兰 实用 程序 图 的 集合 中 提取 的 手写 
J 数字 数据 集 ， 其 中 包含 2000 个 属于 10 类 (0-9) 的 数字 对 象 。 
数 用 二 机 妈 作 c 人 中 小 每 类 有 200 个 对 象 。 每 个 对 象 均 由 649 个 特征 表示 ， 这 些 特 
初始 化 粒子 位 置 与 速度 征 分 为 以 下 六 个 视图 : a)Mfeat-fou 视图 包含 76 个 字符 形状 
1 ET 的 傅 里 叶 系数 ;b)Mfeat-fac 视图 包含 216 个 配置 文件 相关 性 ; 
| a 第 过 间 的 可 权 隆 c)Mfeat-kar 视图 包含 64 个 Karhunen-Love 系数 ; d)Mfeat-pix 
A 视图 包含 240 个 像素 窗口 ;e)Mfeat-zer 视图 包含 47 个 Zernike 
薄 子 是 否 需要 扰动 ? 志和 和 时 刻 ; fjMfeat-mor 视图 包含 6 个 形态 特征 。 
ie 互联 网 广告 数据 集 包含 来 自 各 种 网 页 的 3279 张 图 像 ， 
ee 二 这 些 图 像 被 分 类 为 广告 或 非 广告 。 有 20 张 图 片 的 值 缺失 。 本 
择 受 扰动 的 粒子 文 的 实验 在 3259 个 实例 上 进行 , 删除 了 缺失 值 的 实例 。 在 六 
| 个 视图 中 描述 了 实例 。 视 图 1 包含 3 种 图 像 几何 形状 (宽度 ， 
高 度 ， 长 宽 比 ); 视图 2 在 包含 图 片 的 页 面 网 址 (基本 网 址 ) 中 
a 包含 457 个 词组 ， 视 图 3 包含 495 个 图 像 URL 的 短语 (图 像 
J URL); 视图 4 在 图 像 所 指向 的 页 面 的 URL 中 包含 472 个 短 
评价 所 有 粒子 的 gBest 输出 最 优 值 : ,ZWE, WV 语 (目标 URL); 视图 5 包含 111 个 锚 文 本 ; 视图 6 包含 19 个 
像 的 文本 alt( 蔡 代 )html 标签 (alt 文本 )。 
Spambase 数据 集 是 一 个 数据 集 , 其 垃圾 邮件 的 收集 来 E 
邮局 主管 和 具有 现场 垃圾 邮件 的 个 人 ， 非 垃圾 邮件 的 收集 来 
匀 现 场 工作 和 个 人 电子 邮件 ， 其 中 包含 4601 个 属于 2 类 ( 垃 
图 1 IWKM 算法 流程 图 圾 邮件 、 非 垃圾 邮件 ) 的 对 象 。 每 个 对 象 都 由 57 个 要 素 表示 ， 
Fig.1 Flow chart ofIWKM algorithm 这 些 要 素 分 为 三 个 视图 ， 分 别 是 单词 频率 视图 ， 字 符 频 率 视 


3 ”实验 评估 图 和 大 写 游程 视图 。a) 单词 频率 视图 包含 word 类 型 的 48 个 
连续 实数 属性 ; b) 字 符 频 率 视 图 包含 char 类 型 的 6 个 连续 实 

3.1 测试 环境 和 spark 数 属 性 ;， c) 大 写 游程 视图 包含 测量 连续 大 写字 母 序 列 长 度 的 
在 分 布 式 和 并 行 计算 环境 中 , apache spark 是 一 个 重要 的 ”3 个 连续 实数 属性 。 
开源 集群 计算 框架 ， 它 为 隐 式 数据 并 行 和 容错 的 整个 集群 编 在 该 数据 集中 ， 从 7 张 室外 图 像 的 数据 库 中 随机 抽取 了 
程 提 供 了 一 个 接口 09。spark 的 弹性 分 布 式 数据 集 (RDD) 是 分 ”2310 个 实例 。 手 动 分 割 图 像 以 为 每 个 像素 创建 一 个 分 类 。 每 
布 式 程序 的 工作 集 ， 可 以 提供 受 限 形式 的 分 布 式 共 享 内 存 。 个 实例 都 是 一 个 3x3 的 区 域 。 数 据 集 包含 19 个 特征 ， 可 分 
通常 ， 由 于 重复 的 重新 启动 作业 、 大 数据 读 取 和 改组 ， 为 2 个 视图 : 形状 视图 包含 9 个 有 关 形 状 信息 的 特征 ， 而 
MapReduce 作为 有 效 的 海量 并 行 数据 处 理 框 架 ， 不 适合 迭代 ”RGB 视图 包含 10 个 有 关 颜 色 信 息 的 特征 。 
算法 。 因 此 ， 本 文选 择 了 apache spark 作为 大 数据 应 用 中 自动 处 理 2126 例 胎 儿 心 电 图 (Cardiotocograms,CTG) 并 
IWKM 的 计算 平台 。 在 本 文 的 实验 中 ， 对 IWKM 进行 了 测 测量 相应 的 诊断 特征 。CTG 还 由 三 位 专家 产科 医生 进行 分 类 ， 
试 ， 并 在 包括 apache spark 和 single node 在 内 的 各 种 计算 环 并 为 他 们 每 个 人 分 配 了 共识 分 类 标签 。 分 类 既 涉及 形态 学 模 


mt 


境 中 进行 了 比较 。Single node 配备 了 Intel Corei5-4210M2.6 ” 式 (A，B，C...)， 也 涉及 胎儿 状态 (N，S，P)。 因 此 ， 该 数据 

Hz，3.8 G RAM 和 ubuntu 14.04LTS 操作 系统 。 集 可 用 于 10 类 或 3 类 实验 。 在 此 实验 中 ， 将 其 用 作 3 类 数 
Apache spark 由 一 个 主 节 点 ， 配 置 为 Intel Core i7- 据 集 。 在 数据 集中 ， 可 以 将 21 个 要 素 划 分 为 3 个 视图 : 每 秒 

3820@3.6GHz，64GDDRII 和 1T 高 效 云 磁盘 ， 十 个 工作 节 ”指标 ， 可 变性 视图 和 直方 图 视图 。 


点 ， 相 关 配 置 为 Intel Xeon E5-2690@2.9 GHz，16G DDRII ”3.3 评估 指标 


和 500G 高 效 云 磁盘 ， 应 用 版 本 为 apache spark 1.6.0。 于 已 为 本 文 的 实验 选择 了 五 个 数据 集 的 真实 分 区 ， 因 
3.2 测试 数据 集 和 评估 指标 此 可 以 通过 将 所 得 聚 类 与 外 部 结构 按照 外 部 标准 进行 比较 来 


为 了 评估 所 提 算 法 的 性 能 ， 本 文 还 通过 RI，JC 和 Folk 评估 聚 类 算法 的 性 能 。 一 些 常用 的 标准 包括 兰 德 指 数 (Rand 
的 评估 指标 ， 将 IWKM 与 LAC， 亲 和 传播 (affinity ” Index,RI), 杰 卡 德 系数 (Jaccard Coefficient,JC) 和 Folk(Fowlkes 
propagation,AP)07, 归 一 化 分 割 (normalized cut,Ncut)H1, 密度 Russel) 。 令 C={C,CG,Cw} 为 数据 集中 的 M 个 簇 ， 
聚 类 (density clustering,DC)081 和 TWKM 进行 了 比较 。 为 了 公 C={C,C,…,Cx} 由 聚 类 算法 生成 的 X 个 聚 类 的 集合 。 给 定数 
平 比较 , PSO 和 CPSO 使 用 相同 的 人 口 规模 30 和 相同 的 150  ” 据 集 中 的 一 对 点 (X,X,)， 称 为 
个 适应 度 值 评估 。IWKM 和 其 他 五 种 算法 已 在 5 个 高 维 多 视 SS 是 一 对 数据 点 的 数量 ， 其 中 Xi,X) eC Xi,Xj EC,izj。 
图 数据 集中 进行 了 测试 ， 其 中 包括 多 特征 数据 集 ， 互 联网 DD 是 一 对 数据 点 的 数量 ， 其 中 


从 忆 / 
告 数据 集 ，Spambase 数据 集 ， 图 像 分 割 集 和 心电图 数据 集 。 Xi EC Xj eC XiEeCo XiEeCo，i 户 1 关 mi2,11 关 712 。 
这 些 数据 集 及 其 应 用 的 基本 信息 如 表 1 所 示 。 SD 是 一 对 数据 点 的 数量 ， 其 中 
表 1 高 维 多 视 图 数据 集 的 特征 Xi,X) ECoXi ECoX) EC i jnl#n2, 
Tab.1 Characteristics of high dimensional multi view data set DS 是 一 对 数据 点 的 数量， 内 中 

序号 数据 集 数据 量 ”数据 类 别 数据 特征 视觉 数目 ”单个 类 的 大 小 Xi eC, Xj EC Xr Xj eC, iz#¥ jmz#m2, 

1 多 特征 2000 10 649 6 (200,200,...,200) 本 文 使 用 的 三 个 外 部 标准 可 以 定义 如 下 : 

2 ”互联 网 广告 ”2359 2 1557 6 (381,1978) RI=(SS+DD)/(SS+SD+DS+DD), RI 值 越 大 , 说明 聚 类 结果 与 


3 Spambase 4601 2 57 3 (2788,1813) 真实 情况 越 吻合 。 
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JC=55S/(SS+SD+DS) ， 该 指标 用 于 衡量 两 个 数据 的 相似 。 集中 以 3 步 长 设置 在 2，20]。 关 于 它们 的 平均 评价 指标 的 统 

度 ，JC 值 越 大 ， 相 似 度 越 大 ， 聚 类 精度 越 高 。 计 结 果 如 图 2 所 示 。 从 图 2 可 以 看 出 , 当 Q-4 分 别 选择 为 25、 
A 8 和 30 时 ，IWKM 具有 在 single node 上 的 3 个 数据 集中 进 
Pol = | * ss， 该 指 标 用 于 评价 束 类 质量 , Folk 信 。 行 绝 关 的 及 储 性 能 . 多数 O_exx 各 pbert 是 维 度 惯 性 的 人 
越 大 ， 说 明 聚 类 质量 越 高 。 值 ， 用 于 测量 每 个 维度 中 位 置 的 可 感知 变化 是 否 发 生 。 三 个 
3.4 参数 分 析 数据 集 上 的 参数 CQ_gbest 和 2_pBey 也 与 2_4 类 似 地 进行 分 
为 了 分 析 3 个 参数 (2 -4 ，Q- sbest 和 0Q-pBest ) 对 高 维 多 。 析 。 关 于 它们 的 平均 评价 指标 的 统计 结果 分 别 示 于 图 3 和 图 


视图 数据 的 聚 类 性 能 的 影响 ， 在 single node 上 对 3 个 数据 集 ”4。 当 参数 Q_ gbest 设置 为 5,5.0E-5 和 5.0E-4, 且 参 数 Q_pBest 
(Mfeat 数据 集 ， 互 联网 广告 数据 集 以 及 Spambase 数据 集 ) 中 ”设置 为 3.0E-6，3.0E-5 和 0.03，IWKM 在 single node 上 的 3 
的 IWKM 进行 了 测试 。 为 了 减少 统计 错误 ， 所 有 数据 集 均 独 ”个 数据 集中 的 聚 类 性 能 是 最 好 的 。 由 于 在 Spambase 中 JC 和 
立 进 行 了 10 次 模拟 。 RI 的 值 几乎 相等 ， 因 此 JC 和 RI 的 曲线 重 释 。 因 此 ， 根 据 参 
根据 过 早 收敛 的 阔 值 , 本 文 将 C_4 在 Mfeat 和 Spambase ” 数 分 析 的 结果 , 将 选择 最 佳 参数 值 2 4 ，Q_ gbest 和 Q_pBest 
数据 集中 以 5 步 长 设置 在 [5, 45]。 将 C_4 在 互联 网 广告 数据 ”并 在 下 一 个 实验 中 进行 测试 。 
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图 2 参数 2_4 变化 曲线 


Fig. 2 Parameter change curve of Q_d 
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图 3 参数 0Q_gbest 变化 曲线 


Fig.3 Parameter change curve of Q_ gbest 
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图 4 参数 0Q_ pbest 变化 曲线 

Fig.4 Parameter change curve of QO_ pbest 

3.5 PSO 和 CPSO 的 比较 权重 和 特征 权重 。 
为 了 验证 CPSO 在 IWKM 中 聚 类 中 心 、 视 图 权重 和 特征 ”3.6 IWKM 视图 权重 比较 

权重 的 优化 ， 本 文 在 singlenode 上 的 三 个 高 维 多 视 图 数据 集 为 了 进一步 评估 获得 视图 权重 的 性 能 ， 在 五 个 不 同 的 高 
中 测试 了 CPSO 和 PSO。 通 过 CPSO 和 PSO 将 数据 集运 行 。 维 多 视 图 数据 集中 测试 了 TWKM 和 IWKM。 两 个 算法 在 数 
10 次 ,图 7 记录 并 比较 了 各 种 算法 的 平均 结果 。 在 CPSO 中 ， 据 集中 运行 了 10 次， 并 记录 了 IWKM 和 TWKM 的 平均 结 
提出 了 一 种 精确 的 扰动 ， 包 括 合 适 的 扰动 粒子 、 精 确 的 扰动 果 并 在 表 4 中 进行 了 比较 。 显 然 ，IWKM 和 TWKM 可 以 为 


时 间 和 扰动 维 数 , 以 提高 优化 性 能 .从 图 7 中 可 以 看 出 ,CPSO ”5 个 高 维 多 视 图 数据 集 获得 有 效 权重 。 特 别 是 ， 在 互联 网 广 
可 以 在 single node 上 的 所 有 三 个 高 维 多 视 图 数据 集中 实现 更 。 告 和 图 像 分 割 这 两 个 数据 集中 ，TWKM 和 IWKM 在 获得 视 
好 的 解决 方案 精度 ,并 尽早 获得 最 佳 解决 方案 。 显然 , CPSO ”图 权重 方面 具有 相似 的 性 能 。 但是, 在 apache spark 和 single 
在 IWKM 集群 方面 比 PSO 具有 更 好 的 性 能 。 因 此 ， 本 文 可 node 上 , 在 其 他 3 个 数据 集 (Mfeat, Spambase 和 心电图 ) 中 ， 

以 得 出 结论 ， 作 为 一 种 重要 的 优化 方法 ，CPSO 可 以 帮助 ” IWKM 可 以 获得 比 TWKM 更 好 、 更 合理 的 视图 权重 ,TWKM 
IWKM 在 高 维 多 视 图 数据 中 获得 更 好 的 初始 聚 类 中 心 、 视 图 ”计算 出 的 视图 权重 常常 集中 在 一 个 视图 上 ， 这 与 现实 应 用 不 
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符 。IWKM 计算 的 权重 比 TWKM 计算 的 权重 更 合理 ， 并 且 。 是 ， 在 图 像 分 割 中 ，Ncut 和 TWKM 的 性 能 

特征 的 权重 处 于 相同 情况 。 因 此 ， 本 文 可 以 得 出 结论 ， 在 视 。 由 于 心电图 数据 集 比 图 像 分 割 数据 集 更 为 复杂 ， 因 此 高 维 多 
2 
图 


日 于 || 
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漠 
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| 
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图 权重 方面 ，IWKM 比 TWKM 具有 更 好 的 性 能 。 图 数据 集 越 复杂 ，IWKM 的 性 能 越 好 。 总 
利用 CPSO 进行 优化 得 到 六 个 聚 类 算法 的 最 优 参数 值 ， 加 有 效 地 处 理 大 数据 应 用 中 的 高 维 多 视 区 
如 表 2 所 示 。 为 了 进一步 验证 所 提出 算法 在 大 数据 应 用 中 对 同时 ， 在 这 些 复杂 的 数据 集中 ，IWKM 优 于 其 他 五 种 算法 。 


人 


ul 
也 


高 维 多 视 图 数据 进行 聚 类 的 综合 性 能 ， 在 apache spark 和 出 

single node 两 种 不 同 的 计算 平台 上 ， 通 过 RI，JC 和 Folk 的 

评估 指标 , 在 五 个 高 维 多 视 图 数据 集中 将 IWKM 与 其 他 五 种 Mm 

算法 进行 了 比较 。 | 
在 实验 中 , 视图 数 与 特征 数 的 乘积 记录 为 pw， 用 于 描述 


高 维 多 视 图 数据 的 复杂 性 。 特 征 数 越 大 ， 高 维 多 视 图 数据 越 
复杂 。 在 表 1 中 ， 根 据 wor* 的 值 ，Mfeat 的 数据 集 (特征 数 : 和 
649， 视图 数 ; 6，Pr=649x6=3894 )、 互 联网 广告 数据 集 ( 特 征 (a) 多 特征 数据 集 
数 : 1557， 视 图 数 : 6， Pr =1557x6=9342) 比 Spambase 数据 | 
集 (特征 数 ，57， 视 图 数 ，3， p=57x3=171)、 图 像 分 割 数据 me 
集 (特征 数 ，19， 视 图 数 ，2， p=19x2=38 )、 心 电 图 数据 集 | 
(特征 数 : 21， 视 图 数 : 3， Pre =21x3=63) 更 复杂 。 et 
表 3 总 结 了 IWKM 与 其 他 5 种 算法 在 apache spark 和 Wt 
single node 上 的 综合 比较 。 比 较 它 们 的 平均 结果 (10 倍 ) 和 标 1 | 
准 偏差 以 减少 统计 误差 。 从 这 些 结果 中 , 可 以 看 到 IWKM 在 轩 汪 汪汪 滨 玫 竹下 和 和 
Mfeat 数据 集 和 互联 网 广告 数据 集中 明显 优 于 的 其 他 五 种 血 (b) 互 联网 广告 数据 集 
法 。 在 Spambase 数据 集中 ，IWKM 的 性 能 优 于 TWKM 和 
DC， 但 AP 在 Mfeat 数据 集中 的 效果 最 差 。 在 Mfeat 数据 集 os 二 
中 ，DC 和 IWKM 均 比 LAC，AP，Ncut 和 TWKM 更 好 。 在 a 
互联 网 广告 数据 集中 ,AP,TWKM 和 IWKM 的 性 能 优 于 LAC， 1 
Ncut 和 DC。LAC 明显 优 于 Spambase 数据 集中 的 其 他 5 种 
算法 ( 包括 IWKM), 但 Spambase 数据 集 的 复杂 度 低 于 Mfeat 9 | 
数据 集 和 互联 网 广告 数据 集 。 因 此 ， 可 以 得 出 结论 ， 在 这 些 人 
杂 的 数据 集中 ，IWKM 在 针对 具有 更 多 视图 和 更 高 维度 数 (c)Spambase 数据 集 
据 集 来 说 ， 例 如 多 特征 和 互联 网 广告 数据 集 ， 胜 过 其 他 五 种 图 5 PSO 与 CPSO 的 比较 
算法 。 在 心电图 数据 集中 ，IWKM 优 于 其 他 的 5 种 算法 。 但 Fig.5 Comparison between PSO and CPSO 
表 2 实验 中 六 种 聚 类 算法 的 参数 值 
Tab.2 Parameter values of six clustering algorithms in the experiment 
算法 多 特征 互联 网 广告 Spambase 图 像 分 割 心电图 
LAC(h) 2 14 2 5 
AP(4, p) (0.9,2.7) (0.9,60.0) (0.9,12.0) (0.9,-4.7) (0.9,-24) 
Necut(e) 1.0E-8 1.0E-8 1.0E-8 1.0E-8 1.0E-8 
DensityC( Pp ) 1.6 1.4 1.9 gl 1.5 
TWKM( 4,7 ) (30,7) (80,25) (53,18) (70,40) (40,18) 
IWKM( QO_d,Q_ gBest,Q _ pBest ) (25.0,0.5,3.0E-6) (8.0,5.0E-5,3.0E-5) (30.0,5.0E-4,0.03) (20.0,5.0,3.0E-5) (20,5.0,3.0) 
表 3 五 种 算法 的 比较 
Tab.3 Comparison of five algorithms 
数据 集 LAC AP Neut DensityC TWKM IWKM 
RI 0.9344 +0.0000 0.8931 +0.0000 0.9317 +0.0065 0.9578 土 0.0000 ”0.9456 +0.0000 “0.9586 +0.0118 
多 特征 JC 0.5365 +0.0000 0.3510 +0.0000 0.4959 +0.0342 ”0.6720 +0.0000 “0.$937 +0.0000 0.6820 +0.0719 
Folk 0.6988 +0.0000 0.5226 +0.0000 0.6625 +0.0301 0.8060+0.0000 “0.7467 +0.0000 0.8116 +0.0466 
RI 0.7154 +0.0000 0.8124 +0.0000 0.6803 +0.0016 0.6996+0.0000 0.8131 +0.0000 0.8179 +0.0132 
互联 网 广告 JC 0.7055 +0.0000 0.7785 +0.0000 0.6151 +0.0026 0.6974+0.0000 “0.7792 +0.0000 “0.7858 +0.0088 
Folk 0.8322 +0.0000 0.8759 +0.0000 0.7646 +0.0017 ”0.8293 +0.0000 ”0.8764 +0.0000 0.8809 +0.0043 
RI 0.7112 +0.0000 0.5527 +0.0000 0.5616 +0.0000 0.5209 +0.0000 0.5208 +0.0000 0.5225 +0.0003 
Spambase JC 0.5893 +0.0000 0.4797 +0.0000 0.4611 +0.0000 0.5196+0.0000 0.5194+0.0000 0.5222 +0.0002 
Folk 0.7397 +0.0000 0.6590 +0.0000 0.6358 +0.0000 “0.7194 +0.0000 0.7192 +0.0000 0.7225 +0.0003 
JC 0.3252 +0.0000 0.2254 +0.0000 0.3038 +0.0000 0.2573 +0.0000 0.2996 +0.0000 0.2297 +0.0065 
图 像 分 割 RI 0.5319 +0.0000 0.8110 +0.0000 0.8974 +0.0000 “0.5388 +0.0000 0.8252 +0.0000 0.8047 +0.0103 
Folk 0.5055 +0.0000 0.3682 +0.0000 0.4706 +0.0000 0.4115 +0.0000 0.4645 +0.0000 0.3750+0.0036 
JC 0.3854 +0.0000 0.3067 +0.0000 0.1886 +0.0000 0.3535 +0.0000 ”0.3897 +0.0000 0.3984 +0.0000 
心电图 RI 0.5408 +0.0000 0.5034+0.0000 0.4346+0.0000 0.4617++0.0000 0.5086+0.0000 0.5576+0.0210 
Folk 0.5705 +0.0000 0.4885 +0.0000 0.3721 +0.0000 0.5262 +0.0000 0.5656 +0.0000 0.5854 +0.0054 
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表 4 TWKM 和 IWKM 计算 的 视图 权重 
Tab.4 View weights calculated by TWKM and IWKM 


TWKM 特征 权 值 IWKM 特征 权 值 


1.66665E -6 0.23424 

1.66665E -6 0.23358 

多 特征 1.66665E -6 0.25141 

1.66665E -6 0.01263 

1.66665E -6 0.09903 

0.99999 0.16911 

1.66665E -6 0.11030 

0.20205 0.16166 

0.21539 0.12580 

互联 网 广告 

0.19255 0.29347 

0.16216 0.30720 

0.22784 0.00157 

0.99999 0.58757 

Spambase 3.33331E -6 0.06495 

3.33331E -6 0.34748 
0.4684598 0.44744640 

图 像 分 割 
0.5315402 0.55255359 
9.999933E-01 0.1592640 
心电图 3.333311E-06 0.4687741 
3.333311E-02 0.3719617 
4 ”结束 语 


针对 传统 聚 类 算法 无 法 处 理 大 数据 中 多 视图 高 维 数据 问 


题 , 提出 了 一 种 基于 混沌 粒子 群 优 化 算法 的 智能 加 权 K 均值 
聚 类 算法 ,通过 实验 证 明了 CPSO 可 以 帮助 IWKM 在 高 维 
视图 数据 中 获得 更 好 的 初始 聚 类 中 心 、 视 图 权重 和 特征 权 习 
为 聚 类 精度 的 提升 提供 良好 的 初始 值 要 求 。 另 外 提出 方法 
够 有 效 实现 多 视图 高 维 数据 的 聚 类 ， 且 针对 视图 越 多 、 维 
越 高 、 数 据 越 复杂 的 数据 集 越 能 够 体现 该 算法 的 优越 性 。 
是 本 文 方 法 由 于 数据 来 源 问题 ， 只 应 用 了 五 类 数据 ， 对 方法 
的 验证 效果 还 需要 更 多 类 别 的 数据 进行 验证 , 需要 进一步 研究 。 
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